Aprendizaje escalable de circuitos para interpretar grandes modelos de lenguaje
CircuitLasso interpreta LLMs con regresión dispersa, logrando precisión estructural a menor costo. Descubre cómo las características semánticas se propagan.
CircuitLasso interpreta LLMs con regresión dispersa, logrando precisión estructural a menor costo. Descubre cómo las características semánticas se propagan.
Descubre cómo el Autoencoder Disperso Racional (RSAE) mejora la interpretabilidad de modelos de IA con una activación entrenable, superando a SAE tradicionales.
Descubre VQLC, alternativa escalable al clustering para descubrir conceptos en LLMs con alta coherencia.
Descubre cómo un autoencoder disperso revela los desafíos de interpretabilidad en un modelo fundacional de dinámica continua y sus discrepancias físicas.
SAEExplainer optimiza la interpretación de características SAE usando preferencias guiadas por activación, reduciendo alucinaciones y mejorando causalidad.
Transformer ligero estima transmisión y radiancia atmosférica en imágenes hiperespectrales LWIR, mejorando la compensación sin supervisión de ubicación.
Cómo adaptadores ligeros entrenados en pares vector-etiqueta logran autointerpretación que supera etiquetas y revela razonamiento implícito.
Descubre cómo el autoencoder disperso a nivel de paso (SSAE) desentraña el razonamiento de los LLMs, revelando información sobre corrección y lógica. Ideal para interpretabilidad en IA.
Descubre cómo Latent Reward Steering optimiza el razonamiento de LLMs al promover comportamientos cognitivos implícitos.